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国史 知识 的 语义 揭示 与 组 织 方法 研究 
X Ei KER 孙 de 雷 枫 


摘 要 深入 开展 中 华人 民 共 和 国 国 史 的 教育 和 研究 一 直 是 各 方 高 度 重视 的 工作 。 将 国史 知识 进行 语义 揭示 和 
组 织 , 对 于 国史 的 教育 和 研究 具有 重要 意义 。 在 参考 相关 研究 成 果 的 基础 上 ,本 文 提出 了 “向 下 挖 据 , 向 上 组 织 ” 
的 国史 知识 语义 揭示 与 组 织 方法 。 这 一 方法 以 国史 本 体 为 基础 ,在 对 隐藏 于 国史 资源 文本 条 目 中 的 国史 知识 对 
象 和 相关 事实 进行 语义 挖掘 和 揭示 的 基础 之 上 ,通过 国史 知识 对 象 的 关联 ,构建 国史 知识 网 络 , 并 基于 时 间 、 类 
属 .层级 及 统计 等 关系 ,对 国史 知识 内 容 进行 更 高 层次 的 多 维 组 织 展示 ,并 基于 这 一 思路 开发 了 相应 的 系统 平台 ， 
实现 可 国史 知识 的 揭示 、 重 组 和 其 他 创新 应 用 。 本 文 所 提出 的 国史 知识 语义 揭示 和 组 织 方法 对 其 他 类 型 知识 的 
开 伏 利用 具有 参考 价值 。 图 7。 参 考 文献 12。 
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A Method of Semantic Representation and Organization of the His- 
tótic Knowledge on Contemporary China 


WANG Ying, ZHANG Zhixiong, SUN Hui & LEI Feng 


ABSTRACT 


China has a huge volume of historic resources on its contemporary history. However the organization of those 


historic resources is not satisfactory. Lots of valuable knowledge are hidden in those resources and can not 


(discovered and utilized easily. It is an urgent problem to mine the implicit semantic knowledge scattered 
large number of historic resources and to organize the knowledge based on its internal relations. The au- 
thors)believe that it will benefit the education and research of contemporary China history to represent and 
organize those historic resources semanticly. Based on the historic encyclopedia of the contemporary China, 
the authors try to explore a new method to semantically represent and organize the historic knowledge hidden 
in the text resources, so as to help the users to represent the historic knowledge in a fine-grained manner, 
to reorganize the historic knowledge in a more semanticly enriched way, and to develop more innovative ap- 
plication by using the historic knowledge. 


On the basis of related researches, this paper proposes a method, which is called *Mining down, Organi- 


zing up", to represent and organize historic knowledge on contemporary China. Based on contemporary Chi- 
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nese historic ontology, this method extracts knowledge objects and facts from the unstructured historic text 
items, forms a historic knowledge network of the contemporary China, and realizes the multidimensional 
knowledge organization on a higher level by the relations such as time, subclass, hierarchy, and statistics. 
Aiming at the key problems in the method, this paper puts forward specific procedures of representing and 
organizing historic knowledge of the contemporary China. Firstlly, the paper builds an ontology conceptual 
model as the basic organization mode dscribing the skeleton of historic knowledge of the contemporary Chi- 
na; Secondly, the paper determines core objects to populate ontology instance library served as corpus for 
automatic identification. After that, the paper extracts facts automatically from text items by unitilizing text 
mining technology, then ensures the reliability of these facts through judgment and complement of domain 
experts; Moreover, the paper builds historic knowledge network based on the association among knowledge 
objects; Finally, the paper realizes multidimensional knowledge organization on the basis of the network. 

Based on this method, the authors represented and organized historic knowledge of the contemporary 
China from text resources, and developed a system to implement historic knowledge visualization, reorgani- 
zation and other new applications including knowledge maps, relatedness analysis, and national history 
facts reconstruction and etc. 

The limitations of this research are that 1) the accuracy of recognizing knowledge objects and relevant 
facts from text should be improved, especially the identification and recommendation of relevant national 
history facts; it will further reduce the workload of domain experts; 2) The association calculation method 
of historic knowledge network is simple and has not fully applied current semantic similarity calculation and 
graph mining methods. These are key problems that need to be solved in our future studies. 

Studies show that the *Mining down, Organizing up" method can realize fine-grained representation of his- 
toric knowledge of the contemporary China and innovative application of knowledge organization based on 
historic knowledge objects; it can be used as a kind of new knowledge representation and organization meth- 
ods applicable in other fields. 

This paper proposes an original method for semantic representation and organization, which uses contem- 
porary Chinese historic ontology as basic organization mode, extracts important knowledge objects and facts 
from the historic text items with text mining technology, forms a complex network, and realizes multidimen- 
sional knowledge organization by assocation calculation on the network. The *Mining down, Organizing up" 
method effectively realized the fine-grained representation and deep-level organization of historic knowledge 
of the contemporary China. 7 figs. 12 refs. 
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华 民 族 的 向 心力 ,正确 认识 当代 中 国 的 社会 现 

0 引言 实 有 着 重要 的 意义 。 
随 着 社会 的 数字 化 和 网 络 化 发 展 ,国史 信 
深入 开展 中 华人 民 共 和 国 国史 的 教育 和 研 ” 息 资源 的 规模 日 益 庞大 而 且 种 类 繁杂 ,内 容 多 
究 一 直 是 各 方 高 度 重 视 的 工作 。 国 史 知 识 的 宣 — 样 ,其 组 织 和 管理 方式 较为 简单 ,一 些 有 价值 的 
传 . 普 及 和 研究 对 于 弘扬 爱国 主义 精神 ,增强 言 息 往往 渡 没 于 其 中 无 法 被 揭示 和 利用 。 如 何 
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将 散布 于 大 量 信息 资源 中 的 细 粒 度 国 史 知 识 和 
事实 挖掘 出 来 ,按照 知识 之 间 内 在 相关 关系 来 
组 织 表 示 , 成 为 噶 待 深入 研究 和 解决 的 问题 。 
这 对 于 “国史 ”信息 资源 的 进一步 加 工 和 研究 以 
及 开放 共享 都 具有 重要 的 促进 作用 ,有 助 于 推 
动 国史 知识 的 宣传 与 普及 ,帮助 国史 研究 人 员 
有 效 获取 和 利用 相关 信息 产 出 科研 成 果 。 

近年 来 ,在 历史 领域 ,一 些 研 究 者 已 经 开始 
了 历史 知识 组 织 .语义 内 容 揭示 、 知 识 发 现 等 研 
究 工作 。 如 ,构建 了 国共 合作 历史 本 体 '" 东北 
PRERE (REG 38 38) AS WS! 《三 国志 》 
历史 领域 本 体 ' ,利用 本 体 对 历史 知识 进行 语 
义 描述 和 组 织 。 武 汉 大 学 董 慧 教授 带领 的 团 
队 四 以 二 十 四 史 为 基础 ,采用 语义 技术 对 史籍 
语 料 进行 组 织 ,构建 了 二 十 四 史 语 义 知 识 库 , 通 
过 应 用 语义 推理 技术 发 据 史 籍 资源 中 的 潜在 知 
JA ,搭建 了 中 华 基本 史籍 分 析 平 台 ,为 用 户 提 供 
语义 化 的 知识 服务 ,为 后 续 的 研究 工作 奠定 了 
实践 基础 。 在 国外 ， Hyvónen 等 人 中 构建 了 芬 
兰 历史 事件 本 体 ,并 将 其 应 用 在 芬兰 文化 语义 
网 门户 CultureSampo 中 , Corda 等 人 中 提出 事件 
本 体 的 逻辑 模型 ,用 于 发 现 历史 领域 事件 之 间 
的 联系 ,Ide 等 人 二 提出 历史 本 体 的 模型 ,可 以 
反映 历史 领域 在 不 同时 间 段 实体 之 间 关 系 的 
演化 。 

本 文 在 借鉴 国内 外 相关 研究 成 果 的 基础 
上 ,提出 了 “向 下 挖掘 ,向 上 组 织 ” 的 国史 知识 语 
义 揭示 与 组 织 的 思路 和 方法 ,并 基于 这 一 思路 
开发 了 相应 的 系统 平台 ,实现 国史 知识 的 揭示 、 
重组 和 其 他 创新 应 用 。 


“中 华人 民 共 和 国史 教育 网 ”项 目的 目标 是 
普及 国史 知识 辅助 国史 教育 。 其 中 ,面临 的 主 
要 问题 在 于 ,如 何 利 用 信息 自动 处 理 技术 ,辅助 
国史 专家 从 国史 信息 资源 如 《中 国共 产 党 历史 
大 辞典 兴 中 华人 民 共 和 国 国史 百科 全 书 兴 中 国 
近 现代 史 纲 要 兴 中 华人 民 共 和 国 编 年 史 》 等 工 


具 书 中 ,提炼 和 展示 建国 60 多 年 来 重要 国史 知 
识 点 和 知识 点 之 间 的 相关 关联 ,组 织 相关 文本 
信息 资源 。 

针对 这 一 实际 情况 , 本文 提出 了 “向 下 挖 
掘 ,向 上 组 织 ” 的 国史 知识 语义 揭示 与 组 织 的 思 
路 方法 。 这 一 方法 以 国史 本 体 为 基础 ,在 对 隐 
藏 于 国史 资源 文本 条 目 中 的 国史 知识 对 象 和 相 
关 事实 进行 语义 挖掘 和 揭示 的 基础 之 上 ,通过 
国史 知识 对 象 的 关联 ,构建 国史 知识 网 络 , 并 基 
于 时 间 、 类 属 、 层 级 及 统计 等 关系 ,对 国史 知识 
内 容 进行 更 高 层次 的 多 维 组 织 展 示 。 整 体 思 路 
方法 如 图 1 所 示 。 
具体 而 言 ,“ 向 下 挖掘 ”是 一 个 解构 的 过 程 ， 
它 将 国史 资源 文本 条 目 中 的 知识 转化 成 为 一 系 
列 由 知识 对 象 .重要 国史 事实 和 文本 条 目 组 成 
的 国史 知识 网 络 。 有 具体 而 言 , 这 一 过 程 通过 文 
本 挖掘 技术 识别 出 国史 资源 文本 条 目 中 的 重要 
知识 对 象 ,标注 出 这 些 知识 对 象 在 文本 条 目 中 
的 重要 句子 ,抽取 事实 句子 中 的 重要 事实 ,在 专 
家 判断 的 基础 之 上 ,形成 由 “知识 对 象 1+ 关 系 + 
知识 对 象 2” 或 “知识 对 象 + 属性 + 属性 值 ”方式 
表示 的 .结构 化 的 重要 国史 事实 。 根 据 同 一 知 
识 对 象 在 相同 或 不 同 国史 文本 条 目 中 出 现 的 情 
况 , 可 以 抽取 形成 由 同一 知识 对 象 关 联 的 多 条 
国史 事实 ,同样 也 获得 不 同 知识 对 象 直接 或 间 
接 的 关联 以 及 文本 条 目 之 间 的 关联 。 以 此 方 
法 ,国史 知识 可 以 被 转化 为 由 知识 对 象 .重要 国 
史 事 实 和 文本 条 目 组 成 的 国史 知识 网 络 。 在 这 
一 国史 知识 网 络 的 基础 之 上 ,可 以 提供 国史 知 
识 的 检索 关联、 排序. 聚 类 重组 等 功能 ,实现 
国史 知识 的 探索 。 
“向 上 组 织 ” 是 一 个 建构 的 过 程 , 它 利 用 向 
下 挖掘 产生 的 国史 知识 网 络 ,通过 关联 重组 , 实 
现 对 国史 知识 和 国史 文本 条 目 更 深层 次 的 组 织 
和 应 用 。 由 于 原先 的 国史 信息 资源 仅仅 通过 时 
间 维 度 ( 如 基本 完成 社会 主义 改造 时 期 开始 全 
看 建设 社会 主义 时 期 “文化 大 革命 "时 期 等 ) 和 
类 型 维度 (如 事件 会 议 、. 组 织 .路 线 方针 、 文 件 
等 ) 对 文本 条 目 进行 简单 的 组 织 , 不 能 有 效 揭示 
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知识 组 织 
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c 检索 关联 排序 聚 类 重组 | 
c 新 的 组 织 模式 
1 国史 知识 的 语义 揭示 与 组 织 思 路 


文本 条 目 中 更 深层 的 知识 关系 。 针 对 这 一 情 
况 ,“ 向 上 组 织 ” 基 于 “向 下 挖掘” 所 形成 的 国史 


知识 对 象 网 络 ,利用 事实 关系 、 
关系 实现 对 知识 内 容 的 关联 重 


属 .层级 等 多 个 维度 来 组 织 重 
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2 国史 知识 语义 揭示 与 组 织 的 具体 方法 
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只 "的 国史 知识 语义 


揭示 和 组 织 方法 中 ,有 几 个 核心 问题 需要 解决 。 


具体 包括 :如 何 抽象 
以 此 确定 国史 知识 对 象 的 基 
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联 ; 需 要 圈定 哪些 核心 国史 知识 对 象 ,以 作为 自 
动 识别 的 基础 ;如 何 从 文本 资源 中 抽取 与 知识 
对 象 相关 的 事实 ;如 何 进 一 步 实现 深层 次 组 织 。 

针对 这 些 问 题 ,本 文 提出 了 国史 知识 语义 
揭示 与 组 织 的 具体 方法 。 


2.1 构建 国史 本 体 概念 模型 作为 基础 组 织 模式 
国史 资料 内 容 翔实 ,历史 细节 丰富 而 复杂 ， 
有 必要 明确 哪些 知识 需要 重点 关注 ,哪些 历史 细 
节 需 要 展现 ,也 就 是 确定 国史 知识 的 基础 组 织 模 
式 。 为 了 实现 这 个 目标 ,本 研究 以 本 体 组 织 国史 
知识 的 核心 框架 ,利用 抽象 类 揭示 核心 知识 对 象 
的 类 型 ,通过 属性 和 关系 揭示 知识 对 象 的 特征 与 
关联 ,以 此 为 基础 揭示 国史 知识 骨架 ,梳理 国史 
知识 脉络 ,实现 对 国史 知识 的 整体 认识 ,支撑 国 
史 知 识 语义 揭示 与 组 织 的 具体 实现 。 

本 研究 参考 骨架 法 "| .七 步 法 "等 本 体 构 
建 方法 ,在 国史 专家 的 协助 下 根据 领域 特性 提 
! 国 史 本 体 的 概念 模型 。 通 过 分 析 文 本 资源 发 
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现 ,国史 发 展 脉络 主要 围绕 重大 历史 事件 .重要 
会 议 . 重 要 人 物 、 重 要 文献 等 展开 。 为 此 ,在 国 
史 本 体 中 首先 定义 了 事件 ,会议 人物 .机 构 、 文 


民族 都 为 函数 属性 等 。 具体 国史 本 体 的 概念 模 
型 可 参考 文献 [11] 。 


lr .理念 或 术语 等 15 个 核心 类 ( 见 图 2) 。 其 次 ， e- ERE e eis 
" AR EE v" VES LAUS a | N——Z 
根据 事件 ,会 议 . 人 物 等 所 涉及 的 描述 信息 , 确 ILLI SS RE 
定 表示 各 类 知识 对 象 的 属性 信息 以 及 知识 对 象 WA OOTA. 
之 间 的 关系 ,在 本 体 中 定义 了 20 个 数值 属性 和 c BUM | DIAM 
76 个 对 象 属性 。 例 如 ,为 展现 历史 事件 的 细节 ， SANE. A AX L9. | 
定义 了 名 称 、 别 称 文字 描述 等 数值 属性 ,定义 SIN AW LO 
APTE E ` Œ J/H dq. e— Ty —Nr7 党 派 
了 父 事件 . 子 事件 .相关 人 物 、 相 关机 构 事件 发 。 组织 与 机 构 职 务 | / AA Tue 
生 时 间 地 点 等 对 象 属性 以 及 对 象 属性 值 域 ,如 d m 
计 会 与 组 织 
图 3 所 示 。 再 次 ,根据 国史 知识 中 属性 描述 与 关 maa SARASA 
系 特性 ,确定 了 国史 本 体 的 属性 约束 ,如 子 事件 图 2 国史 本 体 核心 类 
和 父 事件 互 为 着 关系 并 都 具有 传递 属性 ,名 称 、 
父 事 件 / 子 事件 
父 事件 / 子 事件 m ————À 
事件 会 议 人 物 
一 名 称 成 立 
-别称 机 构 | 一人。 党派 
一 文字 描述 [社会 团体 5 组织、 
不 会 团 与 组 织 相关 Fl 特殊 群体 
发 表 社论 题词 书信 一 文件 
告 讲话 
提出 ( 方针 路 线 | LE J 
名 词 术语 
发 生 时 间 时 间 ——] 报纸 刊物 
| 发 生地 点 _「 ”国家 和 地 区 
图 3 事件 类 的 属性 及 关系 
2.2. 确定 核心 对 象 作为 自动 识别 的 基础 家 筛选 和 整理 了 建国 以 来 各 个 历史 时 期 的 重大 


在 确定 基本 组 织 模式 之 后 ,需要 收集 和 整 
理 一 些 知 识 对 象 , 作 为 国史 本 体 的 基础 实例 ,也 
为 自动 识别 葛 定 基础 。 本 研究 从 历史 大 辞典 、 
国史 百科 等 国史 信息 资源 中 提取 元 数据 和 结构 
化 数据 ,如 作为 文本 条 目标 题 的 事件 .文件 ,会 
议 、 人 物 名 称 等 ,在 此 过 程 中 建立 了 文本 条 目 与 
知识 对 象 之 间 的 直接 关联 。 同 时 也 充分 利用 人 
名 、 机 构 党派, 地 名 等 现 有 的 主题 词 表 ,通过 消 
收 名 称 规则 转换 等 自动 处 理 和 人 工 修订 的 方 
式 实现 数据 规范 化 。 更 为 重要 的 是 ,由 国史 专 


历史 事件 和 会 议 , 并 梳理 了 事件 .会 议 之 间 的 层 
次 与 关联 ,将 这 些 重 要 的 事件 和 会 议 作为 核心 
知识 对 象 , 并 作为 对 国史 知识 进一步 揭示 和 组 
织 的 支撑 数据 。 

经 过 规范 的 知识 对 象 包括 1 685 个 事件 、 
761 个 会 议 .3 508 个 人 物 .2 621 个 机 构 、155 个 
组 织 团体 、107 个 特殊 群体 等 ,梳理 的 事件 /会 议 
层级 关系 共 1 861 条 ,将 这 些 知识 对 象 和 关系 根 
据 本 体 模型 中 定义 的 属性 和 关系 分 别 进行 URI 
命名 ,类 型 定义 ,确定 规范 名 称 、 别 称 , 构 建 层 级 
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关系 等 RDF 转换 ,生成 实例 数据 和 实例 关系 ,加 
人 国史 本 体 。 以 这 些 知识 对 象 的 实例 名 称 、 别 
称 等 为 词典 ,为 进一步 自动 识别 提供 基础 数据 。 


2.3 利用 文本 挖掘 技术 实现 事实 发 现 
围绕 核心 知识 对 象 ,通过 对 国史 信息 资源 
文本 条 目的 向 下 挖掘 ,从 文本 中 发 现 知识 对 象 
的 相关 事实 ,依据 这 些 事实 完善 知识 对 象 对 应 
本 体 实例 的 属性 和 关系 ,以 此 将 文本 中 隐藏 的 
知识 揭示 出 来 ,使 其 变 成 显 性 的 、 可 计算 的 知 
识 。 由 于 国史 信息 资源 文本 内 容 丰 富 , 人 工 完 
成 重要 知识 对 象 的 识别 和 关系 发 现 需 要 耗费 大 
量 的 时 间 和 精力 ,为 此 利用 文本 挖掘 技术 开展 
相关 实验 ,对 文本 资源 进行 自动 语义 揭示 ,辅助 
国史 专家 建立 知识 对 象 之 间 明 确 的 语义 关联 。 

(1) 知 识 对 象 的 自动 识别 

借助 上 面 整 理 的 知识 对 象 名 称 词 典 ,利用 
自动 标注 技术 对 文本 条 目 进行 语义 标注 ,通过 
名 称 和 别称 识别 出 现在 多 个 文本 条 目 中 的 知识 
对 象 。 此 外 , 自 定义 命名 实体 识别 规则 ,实现 时 
间 、 人 物 . 机 构 , 会 议 等 知识 对 象 的 自动 抽取 ,发 
现 新 的 知识 对 象 ,推荐 给 国史 专家 。 
(2) 知 识 对 象 的 事实 发 现 
利用 关系 抽取 技术 从 文本 条 目 中 自动 发 现 
知识 对 象 的 相关 事实 ,提取 揭示 知识 对 象 相关 事 


以 及 揭示 知识 对 象 相 关 事 实 的 句子 ,作为 构建 知 
识 对 象 实例 属性 和 关系 的 依据 。 
尽管 通过 机 器 自动 处 理 能 够 发 现 一 些 潜在 
的 知识 ,但 由 于 自然 语言 的 复杂 性 ,文本 挖掘 结 
果 的 准确 性 仍然 难以 保证 ,无 法 直接 加 入 本 体 
,需要 国史 专家 结合 自身 领域 知识 ,并 参照 知 
识 来 源 条 目 , 判 断 这 些 事实 是 否 正确 ,同时 补充 
一 些 相关 知识 ,经 过 多 次 复审 和 修订 ,才能 保证 
相关 国史 事实 的 准确 性 。 


2.4 基于 知识 对 象 关联 构建 知识 网 络 

经 过 上 述 过 程 ,对 国史 相关 工具 书 和 著作 
实现 了 条 目 内 容 的 细 粒 度 揭 示 , 文 本 条 目 变 成 
了 体现 知识 内 容 的 对 象 化 的 知识 单元 ,从 这 些 
文本 条 目 中 挖掘 出 知识 对 象 和 知识 对 象 之 间 的 
联系 ,形成 了 “ 书 一 条 目 一 事实 一 知识 对 象 ” 的 
国史 知识 向 下 挖掘 过 程 。 挖 据 过 程 中 不 断 发 现 
知识 对 象 和 事实 ,构成 了 揭示 国史 重要 知识 的 
国史 本 体 ,以 此 形成 知识 对 象 层 和 事实 层 。 同 
时 ,建立 知识 对 象 和 事实 与 文本 条 目 之 间 的 关 
联 ,构成 文本 条 目 层 事实 层 、 对 象 层 交 义 关联 
的 复杂 网 络 。 

如 图 4 所 示 ,《 中 国共 产 党 历史 大 辞典 ) 中 
“中 共 十 一 届 三 中 全 会 "条目 揭示 了 “中 共 十 一 
届 三 中 全 会 ”的 召开 时 间 、 地 点 、 参 会 人 物 、 相 关 


实 的 句子 ,推荐 给 国史 专家 。 例 如 ,《 中 华人 民 共 
和 国 国史 百科 全 书 》 中 的 文本 条 目 “ 中 共 十 一 届 
三 中 全 会 "描述 了 中 共 十 一 届 三 中 全 会 的 内 容 。 
其 中 ,“ 中 共 十 一 届 三 中 全 会 是 中 华人 民 共 和 国 
建立 以 来 我 党 历史 上 具有 深远 意义 的 一 次 中 央 
22, F 1978 4 12 H 18 H 8 22 日 在 北京 召开 ” 
隐 含 了 一 些 事 实 :“ 中 共 十 一 届 三 中 全 会 ”的 召开 
时 间 为 “1978 年 12 月 18 日 至 22 日 ”, 地 点 为 “ 北 
京 ”, 等 等 。 根 据 国 史 本 体 中 定义 的 对 象 属性 和 
数值 属性 ,人 工整 理 了 一 些 相关 的 谓语 动词 ,如 
“举办 ”“ 召 开 ”“ 举 行 " 等 ,有 针对 性 地 制定 了 关 
系 抽取 规则 ,如 “会 议 一 召开 一 地 点 ”, “会 议 一 举 
行 一 时 间 ” 等 ,借助 句法 分 析 和 抽取 规则 发 现 文 
本 中 潜在 的 语义 关系 ,形成 一 系列 事实 三 元 组 ， 
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事件 等 事实 《中 华人 民 共 和 国 国史 百科 全 书 》 
和 《中 华人 民 共 和 国 编 年 史 》 中 的 “中 共 十 一 届 
三 中 全 会 "条 目 同样 揭示 了 召开 时 间 、 地 点 ,此 
外 还 揭示 了 ”解放 思想 “实事 求 是 "等 相关 的 理 
念 与 术语 《中 国 近 现代 中 纲要》 的 “伟大 的 历史 
性 转折 ”条 目 中 ,揭示 出 “中 共 十 一 届 三 中 全 会 ” 
的 召开 时 间 、 地 点 、 相 关 会 议 . 相 关 事 件 等 事实 ， 
同时 在 这 一 条 目 中 也 包含 其 他 知识 对 象 的 相关 
事实 ,如 "中共 十 一 大 "事件 的 相关 人 物 .相关 会 
TL," fidi VUA 3e al" 的 相关 人 物 等 。 借 助 
于 文本 挖掘 技术 和 国史 专家 的 领域 知识 ,从 文 
本 中 不 断 揭示 知识 对 象 之 间 的 关联 ,同时 也 依 
据 文 本 内 部 知识 对 象 发 现 这 些 文本 条 目 之 间 的 
内 在 关联 ,以 此 形成 复杂 的 国史 知识 网 络 。 
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图 4 “中 共 十 一 届 三 中 全 会 ”的 知识 网 络 构建 


2.5 基于 知识 网 络 实现 多 维 知识 组 织 

通过 国史 知识 的 语义 揭示 ,形成 条 目 层 、 事 
KE ,对象 层 以 及 各 个 层级 之 间 关 联 的 复杂 网 
络 ,可 以 形成 国史 知识 内 容 的 多 个 维度 ,并 基于 
时 间 、 类 属 、 层 级 及 统计 等 关系 ,对 国史 知识 内 
容 进 行 更 高 层次 的 多 维 组 织 和 展示 。 

(1) 基 于 时 间 维 度 的 组 织 

时 间 维 度 是 展现 历史 发 展 进程 最 直接 的 角 
度 。 依 据 时 间 序 列 , 可 以 将 不 同 书籍 的 文本 条 
目 按 历史 时 期 进行 组 织 , 同 时 也 可 以 根据 国史 
本 体 的 时 间 类 将 知识 对 象 按 出 现时 间 排 序 ,将 
同一 知识 对 象 的 事实 按时 间 排 序 。 此 外 ,展现 
同一 历史 时 期 .时 间 点 发 生 的 重大 事件 、 重 要 会 
议 , 提 出 的 路 线 方针 ,出 现 的 重要 人 物 、 重 要 机 
构 , 出 版 的 著作 、 文 件 ,发 表 的 重要 讲话 ,等 等 。 

(2) 基 于 知识 对 象 的 文本 条 目 组 织 

从 文本 条 目 内 部 揭示 出 的 知识 对 象 和 事 
实 , 为 文本 条 目的 深层 组 织 提供 了 依据 。 相 同 
事实 的 多 个 来 源 条 目 既 验证 了 事实 的 准确 性 ， 
同时 也 反映 出 文本 条 目 之 间 的 密切 关系 。 将 涉 
及 相同 知识 对 象 或 事实 的 文本 条 目 组 
起 ,可 以 为 人 物 传记 、 机 构 沿 革 、 相 关 史 实 资料 
整理 .新书 撰写 等 提供 丰富 的 素材 ,也 可 为 国史 
研究 提供 参考 依据 。 


织 在 一 
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(3) 基 于 事实 /对 象 维度 的 语义 组 织 
通过 建立 国史 本 体 , 实 现 了 对 国史 知识 的 


有 效 组 织 ,能够 对 国史 知识 对 象 和 事实 进行 规 
范 的 语义 表示 ,也 使 得 对 国史 知识 进行 检索 、 关 
联 、 排 序 . 聚 类 重组 等 知识 探索 成 为 可 能 。 一 
方面 ,支持 细 粒 度 知识 的 检索 ,直接 展示 的 是 知 
识 , 而 不 仅仅 是 文本 资源 ,同时 ,利用 SPARQL 
险 索 国史 本 体 可 以 实现 基于 事实 的 结构 化 查 
询 。 另 一 方面 ,通过 语义 关联 能 够 实现 同一 类 
型 知识 对 象 的 聚集 ,利用 同一 个 知识 对 象 的 事 


实 能 构建 描述 知识 对 象 的 地 图 ,灵活 地 实现 面 


向 不 同 应 用 的 知识 组 织 与 知识 集成 。 

通过 以 上 步骤 ,实现 了 对 国史 知识 更 高 层次 
的 多 维 组 织 展示 。 同 时 ,依据 这 些 事实 和 对 象 ， 
也 可 以 将 所 涉及 的 国史 知识 素材 与 其 他 史籍 、 文 
TR .历史 资 料 、 网 页 或 各 种 数据 库 等 外 部 资源 进 
行 关联 ,构建 基于 国史 知识 的 其 他 扩展 应 用 。 


E 


3 国史 知识 语义 揭示 与 组 织 的 应 用 效果 


在 上 述 方法 具体 实现 的 基础 之 上 ,笔者 开 
发 了 相应 的 系统 平台 ,支持 国史 知识 的 揭示 E 
组 .关联 ,并 进一步 实现 国史 知识 的 地 图 揭示 、 
关联 分 析 , 国 史 事 实 的 重组 构建 等 创新 应 用 。 
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3.1 实现 国史 知识 地 图 揭示 续 点 击 可 以 获得 “一 国 两 制 " 的 提出 时 间 为 

知识 地 图 能 够 实现 知识 间 导 航 ,提供 领域 知 “1984 年 2 月 22 日 ”, 在 “政府 工作 报告 (1984 
识 浏览 的 渐进 式 引 导 服 务 "。 基 于 国史 知识 网 ”年 )” 中 宣布 了 该 理念 等 相关 知识 。 右 键 单 击 
络 ,笔者 实现 了 国史 知识 地 图 揭示 。 通 过 可 视 化 “一 国 两 制 一 理念 提出 时 间 一 1984 年 2 月 22 
方式 ,提供 国史 知识 内 容 的 关联 网 络 展示 ,利用 “日 "这 一 条 边 ,可 以 查看 其 知识 来 源 , 即 (中 华人 
节点 代表 知识 对 象 , 边 代 表 各 种 语义 关系 ( 见 图 “ 民 共 和 国 国 史 百 科 全 书 》 的 "一国两制 条目, 其 
5) 。 用 户 不 需要 阅读 文本 信息 就 可 以 直观 地 了 中 的 事实 描述 文字 为 “1984 年 2 H 22 日 , 邓 小 
解 国史 知识 ,同时 也 可 以 作为 国史 知识 浏览 的 可 平 在 会 见 美 国 客人 时 明确 提出 了 “一 个 中 国 , 两 
视 化 导航 ,通过 对 于 知识 节点 的 点 击 操作 ,可 以 ”种 制度 ' 的 概念 。 同 年 5 月 15 日 ,六 届 全 国人 大 
进行 延展 性 阅读 ,使 得 知识 的 获取 更 有 效率 。 二 次 会 议 通过 的 《政府 工作 报告 > 把 “一国两制 * 

图 5 是 国史 知识 地 图 的 片段 ,在 浏览 知识 。 的 构想 确定 为 实现 国家 统一 的 基本 方针 ”。 同 
对 象 “ 中 共 十 一 届 三 中 全 会 ”时 ,根据 其 关联 关 样 继续 点 击 “ 政府 工 作 报 告 (1984 年 )” 节 点 可 
系 可 以 看 到 参 会 者 “邓小平 ” ,点 击 该 节点 后 可 以 进一步 浏览 相关 国史 知识 。 如 此 完成 了 “会 
进一步 浏览 邓小平 提出 的 “一 国 两 制 " 理 念 , 继 ” 议 一 人 物 一 理念 一 报告 "的 地 图 式 导 航 与 浏览 。 


庆祝 香港 回归 祖国 10 周 年 大 会 既 香 港 特别 行政 区 第 三 届 政 府 就 职 典 礼 
中 葡 关 于 澳 吕 问题 签订 联合 声明 
相关 理念 或 术语 


中 英两 国 举行 关于 次 港 


邓小平 关于 “一 国 两 制 ”构想 的 多 次 谈话 
1984 年 2 月 22 日 
1981 年 9 月 30 日 叶剑英 提出 和 平 统一 祖国 的 九条 方针 

图 5 国史 知识 地 图 示例 


3.2 实现 国史 知识 对 象 的 关联 分 析 史 知 识 的 认识 和 了 解 。 
借助 国史 知识 语义 揭示 和 组 织 形 成 的 复杂 

网 络 ,通过 图 遍历 可 以 实现 知识 对 象 之 间 的 关 3.3 实现 国史 事实 的 重组 构建 

联 分 析 , 发 现 其 中 蕴含 的 知识 。 例 如 ,查询 “ 毛 国史 知识 最 典型 的 应 用 是 展现 历史 脉络 。 
泽 东 ”和 “中 共 十 一 届 三 中 全 会 ”的 路 径 小 于 等 ”区别 于 原 有 文本 条 目的 时 期 元 数据 ,构建 国史 
于 3 的 相互 关联 ,可 获得 如 图 6 所 示 的 复杂 知识 本 体 后 计算 时 间 可 以 精确 到 “月 ”和 “日 ”, 并 
网 络 。 图 中 显示 了 “毛泽东 ”和 “中 共 十 一 届 揭示 的 知识 更 加 准确 。 如 , 某 个 时 间 段 或 时 间 
中 全 会 "相关 的 会 议 文件 .事件 人物、 机 构 等 ， 点 相关 的 知识 对 象 .重要 的 事实 ,党 派 、. 机 构 、 社 
以 及 它们 之 间 的 相互 联系 ,尽管 中 共 十 一 届 三 ”会 团体 与 组 织 的 成 立时 间 ,事件 会议 的 发 生 时 
中 全 会 在 毛 主 席 逝 世 后 召开 ,但 仍然 可 以 通过 ” 间 , 理 念 与 术语 的 提出 和 宣布 时 间 , 等 等 ,由 此 
关联 分 析 , 发 现 他 们 之 间 的 多 重 间接 关联 ,从 中 ”形成 大 事 记 、 编 年 等 重要 应 用 。 同 时 ,通过 间接 
挖 据 知 识 对 象 之 间 的 潜在 关系 ,加 强 对 相关 国 。” 关系 也 可 以 发 现 某 一 个 知识 对 象 在 一 个 时 间 点 
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6 关联 分 析 示 例 


或 时 间 段 的 相关 事实 。 例 如 “毛泽东 在 1949 年 
10 月 的 历史 活动 ” ,通过 时 间 类 与 党 派 .机构 E 
会 团体 与 组 织 . 事 件 、 会 议 等 的 关联 ,以 及 这 些 
类 与 人 物 类 的 关联 ,可 以 获得 人 物 类 与 时 间 类 
的 间接 联系 ,进而 查询 到 知识 对 象 “毛泽东 ”在 
指定 时 间 点 的 相关 事实 ,如 “毛泽东 ”参加 了 “中 
央 人 民政 府 委 员 会 第 一 次 会 议 ”, 由 “中 央 人 民 
政府 委员 会 第 一 次 会 议 ” 的 召开 时 间 可 以 得 知 
“毛泽东 ”在 这 个 时 间 点 的 历史 活动 ( 见 图 7)， 
同 理 可 以 揭示 其 整个 生平 的 历史 活动 。 


“毛泽东 ”的 相关 历史 活动 
1947 ， 1949 


1949 年 1 月 至 2 月 间 
1949 年 3 月 


1949 年 6 月 15 日 至 19 日 
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7 历史 活动 示例 


4 结论 


为 实现 国史 知识 的 有 效 组 织 与 利用 ,本 文 
提出 了 向 下 挖掘, 向 上 组 织 ” 的 揭示 与 组 织 
史 知 识 的 思路 和 方法 ,通过 文本 挖掘 和 国史 专 
家 判断 相 结合 的 方式 ,从 国史 信息 资源 文本 条 
目 中 提取 重要 的 知识 对 象 和 事实 ,利用 国史 本 
体 进行 语义 组 织 ,建成 了 用 于 知识 发 现 和 利用 
的 国史 本 体 , 以 此 实现 国史 信息 资源 和 国史 知 
识 的 有 机 组 织 和 知识 的 丰富 ,并 在 此 基础 上 实 
现 了 国史 知识 的 地 图 揭示 、 国 史 知 识 对 象 的 关 
联 分 析 国史 事实 的 重组 构建 等 新 的 应 用 。 

研究 表明 ,本 文 提 出 的 “向 下 挖 据 , 向 上 组 
织 ” 方 法 能 够 有 效 实现 国史 知识 内 容 的 细 粒 度 
揭示 和 基于 知识 对 象 的 国史 知识 创新 组 织 羽 
用 ,可 以 作为 一 种 新 的 知识 揭示 和 组 织 方法 应 
于 其 他 领域 。 本 研究 也 存在 一 些 不 足 ,主要 
纲 在 :从 文本 中 识别 国史 知识 对 象 及 相关 
实 的 准确 程度 有 待 进一步 提高 ,特别 是 在 相 
司 史 事实 识别 和 推荐 方面 ,如 果 准 确 度 提 高 ， 
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将 更 进一步 减少 领域 专家 的 劳动 ;@ 在 国史 知 ”有 充分 使 用 当前 的 语义 相似 性 计算 和 图 挖掘 方 
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i 方法 较为 简单 , 没 法。 这些 都 是 未 来 研究 需要 重点 解决 的 问题 。 
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